2015/01/13

行動健康應用的寶庫:人類行動庫計畫

1990 年正式展開的「人類基因組計畫」(Human Genome Project),是個跨國的大型科學研究計畫,也為後續人類基因的研究奠定了良好的基礎。

2014年,一群德國的研發人員發起了「人類行動庫計畫」(Human Motion Project),旨在仿效人類基因組計畫,形成一個開放協作的科技平台,集結各種對人類「行動」的監測技術,作為健康醫療應用開發的基礎。

整個計畫的基礎,會建立在一套關鍵工具組和資料倉儲架構上,提供人類行動資料的收集、儲存、分析、和傳播架構,以及相關的演算法。

雖然計畫才剛起步,目前文獻庫裡已經有不少跟行走、跑步有關的研究,也有一些「疼痛」、「壓力」,和「緊急狀況偵測」的例子,如果後續可以引起更廣泛的回響,對於開發穿戴式設備、物聯網和行動健康應用的廠商來說應該是一大寶庫。


2015/01/06

[摘譯] 資料科學與幾個「分析」相關領域的比較

[原文] 16 analytic disciplines compared to data science - Data Science Central by Vincent Granville

[譯按]
資料科學(data science)集結了眾多傳統學科領域裡跟「資料」關係比較密切的子領域,儼然成為一個隨著巨資料(Big Data)而生的新興學門。 Vincent Granville 的這篇文章列舉了16個傳統領域,並且比較這些領域與目前大家試圖定義的資料科學有什麼異同。

[摘譯]
目前跟資料科學相關的職稱主要有:資料科學家、首席科學家、資深分析師、分析總監...等等,產業則分布的相當廣,但是主要集中在數位分析、搜尋技術、行銷、反詐騙、天文學、能源、健康醫療、社群網路、財經、鑑定、資訊安全、行動、通訊、天氣預測等等。

而資料科學相關的專案包括:大量資料的分類與分群、推薦引擎、模擬、統計評分系統的規則化、深層原因分析、自動投標系統、鑑定系統、外星探測和早期反恐...等等。這些專案有個很重要的元素是「自動化」,包含了機器之間的通訊,和不斷線持續運行的演算法。舉例來說,像是異常偵測、天氣預報、房價預測(Zillow)等等。

資料科學家與傳統的分析師之間最大的不同,在於「商業敏感度」與「領域專業」,這也是資料科學家容易成為成功創業家的特質。資料科學家的種類繁多,正如同資料科學本身就是一個橫越眾多領域的學門一般。許多資料科學家除了資料分析的專業的能力之外,都有著非常寬廣的技能與知識,這些人就是雇主們所找不到的那些獨角獸。

傳統負責聘僱的經理人,在沒有做足功課的情況下,都會傾向於偏好那些專精非常技術性技能的人才,而非那些具備綜合性技能,既有寬廣的商業嗅覺,又有深入的領域知識的人。稱呼這些人為「獨角獸」其實是不太正確的,因為這類人絕不稀少,很多知名的創投家都是這類人,他們常常從事顧問或高階經理人的職務。比較資淺的資料科學家則大多擅長單一的資料型態,懂得一些最熱門的技術,而且很容易找到相關的工作。

和資料科學有交集的學門主要包括:
  • 電腦科學(台灣大多屬於「資訊工程」學系)
  • 統計學
  • 機器學習與資料探勘
  • 作業研究
  • 商業智慧
以下是資料科學與幾個「資料分析」相關領域的介紹:
  • 機器學習(machine learning):電腦科學裡的一個熱門領域,擅長處理大量資料,跟資料探勘一樣專注在演算法的設計,但是更聚焦在實際營運用的演算法的開發,以及系統的自動化。
  • 資料探勘(data mining):設計演算法,目的主要是從相對大量、無結構的資料裡萃取知識。
  • 預測模型(predictive modeling):這本身並不是一個學門,而是在各個領域裡都有跟預測模型有關的專案,核心知識是統計學和統計模型。
  • 統計學(statistics):目前統計學大多跟調查研究有關,但是作為許多其他領域的核心,與機器學習、預測模型都有很深的淵源。
  • 工業統計(industrial statistics):通常是由非統計學背景的工程師進行諸多關於系統最佳化的統計分析,與傳統統計學相較,這個領域較偏向「作業研究」,應用在生產線的負載平衡和品質控管上。
  • 數學最佳化(mathematical optimization):用數學方法來處理商業上的最佳化問題,很多時候跟統計學者從事的工作和使用的工具都相同,只是在商業上有不同的名稱。
  • 精算科學(actuarial science):統計學當中偏重在保險上應用的子領域。
  • 高效能運算(HPC):高速計算本身並不算是個學門,但是因為牽涉到 Hadoop 和 Map-Reduce 等技術,在實務上與大數據息息相關。
  • 作業研究(operation research):大約20年前從統計學分離出來成為獨立的領域,但是基本上兩者就像雙胞胎,只是專注在商業決策的最佳化,核心能力依然是數值模擬與統計模型。
  • 六個標準差(six sigma):六標準差基本上是一種思維,一種商業哲學,而不是一個學門。這是多年前由摩托羅拉和奇異大力推廣的作法,應用在工程流程的最佳化和品質管控上,可以視為作業研究的簡化版。
  • 量化分析(quant):量化分析的人通常是在華爾街工作,專門解決像是高頻交易或是股市套利的數學問題。
  • 人工智能(artificial intelligence):與資料科學主要的交集在「型態辨識」(pattern recognition)和「自動化系統」。
  • 電腦科學(computer science):主要的交集有幾個,像是大數據的軟硬體架構,演算法和計算複雜度,網路拓譜學,密碼學,資料壓縮和隱私加密...等等。
  • 計量經濟學(econometrics):核心是統計學,但多年來已經自成一個獨立的學門,分析的資料多為時間序列,也跟作業研究有交集。
  • 資料工程(data engineering):主要是大型組織裡的軟體工程和架構師在從事這類工作,比較像是大數據軟硬體架構的應用面。
  • 商業智慧(business intelligence):主要聚焦在商業資料的萃取與呈現上,例如將商業數據設計成一目了然的儀表板(dashboard),和設計各種指標。使用者通常是 MBA 畢業生,大多是擔任分析師的工作。
  • 資料分析(data analysis):大約1995年起,商業統計就逐漸被稱為資料分析,包含的範圍很廣,像是異常偵測、廣告混合模型、屬性模型、銷售預測、零售策略最佳化、消費者區隔...等等。通常在大企業中,商業分析師是比較資淺的角色,知識範圍比較狹窄,也比較缺乏商業願景(與資料科學家相較)。
  • 商業分析(business analytics):跟資料分析類似,只是限定在商業問題上,通常是財金、行銷等背景出身。
[譯按]
呼~好長,已經省略很多細節了,有興趣請參考原文


2015/01/04

[Data analytics] 社群網路分析的盲點

source: KDnuggets
社群網路分析(Social Network Analysis, SNA,中文介紹)是隨著 Big Data 熱潮漸漸廣為人知的服務,主要是透過網絡分析、資訊萃取(Information Retrieval, IR)和自然語言處理(Natural Language Processing, NLP)相關的技術,分析網路上人與人的關聯性,以及對於某些主題討論的熱門程度與正負向態度。
當然,隨著技術的進展,未來可能可以提供更多樣的資訊,但是目前在市場上可以看到的 SNA 產品,大抵就是主打上面提到那些跟網路行銷比較相關的功能。

根據 KDnuggets報導,一篇刊登在 Science 上的研究Social media for large studies of behavior)指出,目前社群媒體分析的方法學是有偏頗的,在使用上需要注意會導致偏誤的結論。例如,某種社群平台上的使用者可能都有某種特色,導致分析的取樣有偏誤;平台的設計可能會導致某種訊息比較容易被看到;預設的分析方法可能不適用於所關心的主題...等等。

作者以 1948 年 11月3日的芝加哥論壇報頭條作為引子:當年芝加哥論壇報引進最新潮的「電報分析」來預測美國總統大選,在選舉開票全一天就先印好頭條:Harry Truman 當選,結果與開票結果相反,成了天大的笑話。

KDnuggets 摘出八點在從事 SNA 研究之前最好先確認的幾件事情:
  1. 量化平台本身的偏誤(平台設計、使用族群、平台使用特徵、平台儲存規定) 
  2. 量化「可取得資料」偏誤(平台提供的資料通常有過濾和限制,而非全部資料) 
  3. 量化目標族群跟跟分析對象的差異 
  4. 過濾並修正「非人類產生」的內容 
  5. 修正抽樣族群的誤差 
  6. 修正平台專屬的誤差(平台的過濾器、演算法所造成的誤差) 
  7. 如果是嘗試新的分析方法,記得用同一套資料跟傳統方法做比較 
  8. 如果是嘗試分析新的現象或演算法,要分析幾組不同的資料
個人雖然不是研究社群網路分析研究的,但前一陣子去參加一個資料相關的黑客松,就有一個活生生的例子。

政府每年會公布當年度有標案違約的廠商黑名單(三年內不得參與政府標案),有人就拿這個名單的公司名稱,直接對應過去這些公司所接過所有的標案金額,指稱每個政府單位被A了多少錢。這就像很多社群網路分析工具裡提供「指標」

後來有人補充說明,一家公司(例如精誠資訊,國內最大的資訊軟體廠商)可能接了政府1000個案子,結果有一個違約,就被列入黑名單,如果就此指稱另外999個案子都是A政府的前,並不是很合理的指控。這就是前面提到「平台演算法」設計上的失誤。

當前社群媒體分析很熱門,裡面有很多簡化的公式,提供可以迅速做參考的指標,如果要根據這些指標最進一步推論,最好對這些指標有深入的了解,以免做出錯誤的結論。